(廢文模式 on)
Day 9 繼續加油~
(照這個速度不知道30天能不能把拿到衣服的課程進度要求寫完XDD)
(廢文模式 off)
這個小節谷歌用一個例子來說明資料與模型在概念上的關聯性:
谷歌在這個小節提出了一些關於要如何開始機器學習專案的撇步:
接下來谷歌談論了有關機器學習在「學習」與「預測」兩種不同階段下所常見的問題:
機器學習的產品在許多情況下實際上很容易失敗的,這樣的狀況可稱之為「Training-serving Skew」
而原因則多數歸咎於在模型的學習階段與預測階段在「運作」上有著非常大的不同。例如:
這些原因族繁不及備載,因此要如何降低所謂「Training-serving Skew」也將會是一個棘手的問題。
接下來就到了谷歌的工商時間啦~ (谷歌建構了一個以雲端為基礎的架構,對於整個機器學習在開發階段以及上線維運階段都有一套 API 來串連,進而達到最大化降低「Training-serving Skew」的風險)
基本上第一個小節是在強調「資料」的重要性,與前面幾節的內容依然一脈相承,可見得資料真的是非常重要XD
而第二小節雖然谷歌下的標題為「Training and serving skew」,但筆者認為重心應放在機器學習專案在建模前的「資料分析」。而筆者之所以這麼認為,並非覺得「Training and serving skew」這個問題不重要,而是Training and serving skew」發生的前提,必須是已經有一個成功並且值得上線的機器學習模型。倘若目前連一個成功的模型都沒有,自然這個問題也就不存在了是吧~
因此筆者認為在第二節中最重要的概念應該是「資料分析」。如同谷歌提到的,機器學習要能成功的關鍵跟資料脫不了關係。因此「對資料了解多深、多透徹」也勢必就是機器學習要能成功的關鍵之一。
千萬不要一拿到資料就很興奮的開始拿各種演算法套用... 運氣好可能有幾個會成功,但即便成功,也不會知道「為什麼成功」... 而更多的情況是,嘗試了一大圈的模型,發現怎麼試都失敗,回頭來看資料才發現資料本身有許多缺陷,當然不可能建構出一個好的模型,而在嘗試各種流派的模型中所消耗時間成本也就跟著煙消雲散了...
(禮拜二... Orz)